Os modelos de raciocínio realmente “pensam” ou não? Pesquisa da Apple gera debate e resposta acalorados

13 de junho de 2025, 15h02

Crédito: VentureBeat feito com Midjourney

Participe do evento que conta com a confiança de líderes empresariais há quase duas décadas. O VB Transform reúne as pessoas que constroem estratégias reais de IA empresarial. Saiba mais

O grupo de aprendizado de máquina da Apple desencadeou uma tempestade retórica no início deste mês com o lançamento de " A Ilusão do Pensamento ", um artigo de pesquisa de 53 páginas argumentando que os chamados modelos de raciocínio de grande porte (LRMs) ou modelos de raciocínio de grande linguagem (LLMs de raciocínio), como a série "o" da OpenAI e o Gemini-2.5 Pro e o Flash Thinking do Google, na verdade não se envolvem em "pensamento" ou "raciocínio" independente a partir de primeiros princípios generalizados aprendidos com seus dados de treinamento.

Em vez disso, os autores argumentam que esses LLMs de raciocínio estão, na verdade, realizando uma espécie de "correspondência de padrões" e sua aparente capacidade de raciocínio parece desmoronar quando uma tarefa se torna muito complexa, sugerindo que sua arquitetura e desempenho não são um caminho viável para melhorar a IA generativa a ponto de se tornar inteligência artificial generalizada (AGI), que a OpenAI define como um modelo que supera os humanos na maioria dos trabalhos economicamente valiosos, ou superinteligência, uma IA ainda mais inteligente do que os seres humanos podem compreender.

Sem surpresa, o artigo circulou imediatamente entre a comunidade de aprendizado de máquina no X, e a reação inicial de muitos leitores foi declarar que a Apple havia efetivamente desmentido grande parte da propaganda em torno dessa classe de IA: "A Apple acaba de provar que modelos de 'raciocínio' de IA como Claude, DeepSeek-R1 e o3-mini não raciocinam de fato", declarou Ruben Hassid , criador do EasyGen, uma ferramenta de escrita automática de posts do LinkedIn voltada para o mestrado em administração de empresas. "Eles simplesmente memorizam padrões muito bem."

Mas hoje, surgiu um novo artigo , com o título atrevido de " A Ilusão da Ilusão do Pensamento " — importante, escrito em coautoria com um LLM de raciocínio, Claude Opus 4 e Alex Lawsen, um ser humano, pesquisador independente de IA e escritor técnico — que inclui muitas críticas da comunidade de ML sobre o artigo e argumenta efetivamente que as metodologias e os designs experimentais que a equipe de pesquisa da Apple usou em seu trabalho inicial são fundamentalmente falhos.

Embora nós aqui da VentureBeat não sejamos pesquisadores de ML e não estejamos preparados para dizer que os pesquisadores da Apple estão errados, o debate certamente tem sido animado e a questão sobre as capacidades dos LRMs ou LLMs de raciocínio em comparação com o pensamento humano parece longe de ser resolvida.

Usando quatro problemas clássicos de planejamento — Torre de Hanói, Mundo de Blocos, Travessia de Rios e Salto de Damas — os pesquisadores da Apple criaram uma série de tarefas que forçavam os modelos de raciocínio a planejar vários movimentos com antecedência e gerar soluções completas.

Esses jogos foram escolhidos por sua longa história em ciência cognitiva e pesquisa em IA, além de sua capacidade de escalar em complexidade à medida que mais etapas ou restrições são adicionadas. Cada quebra-cabeça exigia que os modelos não apenas produzissem uma resposta final correta, mas também explicassem seu raciocínio ao longo do caminho, utilizando a técnica de cadeia de pensamento.

À medida que a dificuldade dos quebra-cabeças aumentava, os pesquisadores observaram uma queda consistente na precisão em vários modelos de raciocínio principais. Nas tarefas mais complexas, o desempenho caiu para zero. Notavelmente, a duração dos rastros de raciocínio interno dos modelos — medida pelo número de fichas gastas pensando no problema — também começou a diminuir. Os pesquisadores da Apple interpretaram isso como um sinal de que os modelos estavam abandonando completamente a resolução de problemas quando as tarefas se tornavam muito difíceis, essencialmente "desistindo".

O momento da publicação do artigo, pouco antes da Conferência Mundial de Desenvolvedores (WWDC) anual da Apple , contribuiu para o impacto. Ele rapidamente se tornou viral no X, onde muitos interpretaram as descobertas como uma admissão de alto nível de que os LLMs da geração atual ainda são mecanismos de preenchimento automático glorificados, e não pensadores de propósito geral. Essa formulação, embora controversa, impulsionou grande parte da discussão e do debate inicial que se seguiram.

Entre os críticos mais veementes do artigo da Apple estava o pesquisador de ML e usuário do X @scaling01 (também conhecido como “Lisan al Gaib”), que postou vários tópicos dissecando a metodologia.

Em uma postagem amplamente compartilhada , Lisan argumentou que a equipe da Apple confundiu falhas no orçamento de tokens com falhas de raciocínio, observando que "todos os modelos terão precisão 0 com mais de 13 discos simplesmente porque não conseguem produzir tanto!"

Para quebra-cabeças como a Torre de Hanói, ele enfatizou que o tamanho da saída cresce exponencialmente, enquanto as janelas de contexto do LLM permanecem fixas, escrevendo "só porque a Torre de Hanói requer exponencialmente mais etapas do que as outras, que exigem apenas quadraticamente ou linearmente mais etapas, não significa que a Torre de Hanói seja mais difícil" e mostrou de forma convincente que modelos como Claude 3 Sonnet e DeepSeek-R1 frequentemente produziam estratégias algorítmicas corretas em texto simples ou código, mas ainda eram marcados como errados.

Outra publicação destacou que até mesmo dividir a tarefa em etapas menores e decompostas piorava o desempenho do modelo — não porque os modelos não conseguissem entender, mas porque não tinham memória de movimentos e estratégias anteriores.

“O LLM precisa da história e de uma grande estratégia”, ele escreveu, sugerindo que o verdadeiro problema era o tamanho da janela de contexto e não o raciocínio.

Eu mesmo levantei outra questão importante sobre o X : a Apple nunca comparou o desempenho do modelo com o desempenho humano nas mesmas tarefas. "Estou perdendo a noção, ou vocês não compararam os LRMs com o desempenho humano nas mesmas tarefas? Se não, como sabem que essa mesma queda no desempenho não acontece com as pessoas também?", perguntei diretamente aos pesquisadores em um tópico que marcava os autores do artigo. Também enviei um e-mail sobre essa e muitas outras perguntas, mas eles ainda não responderam.

Outros concordaram com esse sentimento, observando que solucionadores humanos de problemas também vacilam em quebra-cabeças lógicos longos e de várias etapas, especialmente sem ferramentas de caneta e papel ou recursos de memória. Sem essa base, a alegação da Apple de um "colapso de raciocínio" fundamental parece infundada.

Vários pesquisadores também questionaram a estrutura binária do título e da tese do artigo, traçando uma linha tênue entre “correspondência de padrões” e “raciocínio”.

Alexander Doria, também conhecido como Pierre-Carl Langlais, instrutor de mestrado em engenharia de software na startup francesa de IA com foco em eficiência energética Pleias , disse que o enquadramento ignora as nuances , argumentando que os modelos podem estar aprendendo heurísticas parciais em vez de simplesmente corresponder padrões.

Ok, acho que tenho que dar uma olhada naquele artigo da Apple.
Minha principal questão é o enquadramento, que é superbinário: "Esses modelos são capazes de raciocínio generalizável ou estão alavancando diferentes formas de correspondência de padrões?" Ou e se eles capturassem apenas heurísticas genuínas, porém parciais? pic.twitter.com/GZE3eG7WlM

— Alexander Doria (@Dorialexander) 8 de junho de 2025

Ethan Mollick, professor especializado em IA da Wharton School of Business da Universidade da Pensilvânia, chamou a ideia de que os LLMs estão "batendo em uma parede" de prematura, comparando-a a alegações semelhantes sobre "colapso do modelo" que não deram certo.

Enquanto isso, críticos como @arithmoquine foram mais cínicos, sugerindo que a Apple — atrás da curva em LLMs em comparação a rivais como OpenAI e Google — pode estar tentando diminuir as expectativas”, surgindo com pesquisas sobre “como tudo é falso e gay e não importa de qualquer maneira”, eles brincaram, apontando a reputação da Apple com produtos de IA de baixo desempenho, como a Siri.

Em suma, embora o estudo da Apple tenha desencadeado uma conversa significativa sobre o rigor da avaliação, ele também expôs uma profunda divergência sobre quanta confiança depositar nas métricas quando o teste em si pode ser falho.

Em outras palavras, os modelos podem ter entendido os quebra-cabeças, mas ficaram sem “papel” para escrever a solução completa.

“Os limites dos tokens, não a lógica, congelaram os modelos”, escreveu o pesquisador da Carnegie Mellon Rohan Paul em um tópico amplamente compartilhado resumindo os testes de acompanhamento.

No entanto, nem todos estão prontos para isentar os LRMs da acusação. Alguns observadores apontam que o estudo da Apple ainda revelou três regimes de desempenho — tarefas simples em que o raciocínio adicional prejudica, quebra-cabeças de médio alcance em que ajuda e casos de alta complexidade em que tanto os modelos padrão quanto os de "pensamento" fracassam.

Outros veem o debate como posicionamento corporativo, observando que os modelos “Apple Intelligence” da Apple para dispositivos estão atrás dos rivais em muitas tabelas de classificação públicas.

Em resposta às alegações da Apple, um novo artigo intitulado “ A Ilusão da Ilusão de Pensar ” foi lançado no arXiv pelo pesquisador independente e escritor técnico Alex Lawsen, da organização sem fins lucrativos Open Philanthropy , em colaboração com Claude Opus 4, da Anthropic.

O artigo contesta diretamente a conclusão do estudo original de que os LLMs falham devido a uma incapacidade inerente de raciocinar em larga escala. Em vez disso, a refutação apresenta evidências de que o colapso de desempenho observado foi, em grande parte, um subproduto da configuração do teste — e não um verdadeiro limite da capacidade de raciocínio.

Lawsen e Claude demonstram que muitas das falhas no estudo da Apple decorrem de limitações de token. Por exemplo, em tarefas como a Torre de Hanói, os modelos precisam imprimir um número exponencialmente grande de passos — mais de 32.000 movimentos para apenas 15 discos — o que os leva a atingir limites de produção.

A refutação aponta que o script de avaliação da Apple penalizou essas saídas de estouro de token como incorretas, mesmo quando os modelos seguiram uma estratégia de solução correta internamente.

Os autores também destacam diversas construções de tarefas questionáveis nos benchmarks da Apple. Alguns dos quebra-cabeças do River Crossing, eles observam, são matematicamente insolúveis como propostos, e ainda assim os resultados do modelo para esses casos foram pontuados. Isso questiona ainda mais a conclusão de que falhas de precisão representam limites cognitivos e não falhas estruturais nos experimentos.

Para testar sua teoria, Lawsen e Claude realizaram novos experimentos permitindo que os modelos fornecessem respostas compactadas e programáticas. Quando solicitados a gerar uma função Lua que pudesse gerar a solução da Torre de Hanói — em vez de escrever cada passo linha por linha —, os modelos repentinamente obtiveram sucesso em problemas muito mais complexos. Essa mudança de formato eliminou completamente o colapso, sugerindo que os modelos não falharam em raciocinar. Eles simplesmente falharam em se conformar a uma rubrica artificial e excessivamente rígida.

O vaivém ressalta um consenso crescente: o design da avaliação agora é tão importante quanto o design do modelo.

Exigir que os LRMs enumerem cada etapa pode testar mais seus impressores do que seus planejadores, enquanto formatos compactados, respostas programáticas ou blocos de notas externos oferecem uma leitura mais clara da capacidade real de raciocínio.

O episódio também destaca os limites práticos que os desenvolvedores enfrentam ao lançar sistemas de agente: janelas de contexto, orçamentos de saída e formulação de tarefas podem fazer ou quebrar o desempenho visível ao usuário.

Para tomadores de decisões técnicas empresariais que desenvolvem aplicações com base em LLMs de raciocínio, esse debate é mais do que acadêmico. Ele levanta questões cruciais sobre onde, quando e como confiar nesses modelos em fluxos de trabalho de produção — especialmente quando as tarefas envolvem longas cadeias de planejamento ou exigem resultados precisos passo a passo.

Se um modelo parece "falhar" em um prompt complexo, o problema pode não estar em sua capacidade de raciocínio, mas em como a tarefa é estruturada, quanta saída é necessária ou quanta memória o modelo tem acesso. Isso é particularmente relevante para indústrias que desenvolvem ferramentas como copilotos, agentes autônomos ou sistemas de suporte à decisão, onde tanto a interpretabilidade quanto a complexidade da tarefa podem ser altas.

Compreender as restrições das janelas de contexto, dos orçamentos de tokens e das rubricas de pontuação utilizadas na avaliação é essencial para um design de sistema confiável. Desenvolvedores podem precisar considerar soluções híbridas que externalizem a memória, dividam etapas de raciocínio em blocos ou utilizem saídas compactadas, como funções ou código, em vez de explicações verbais completas.

Mais importante ainda, a controvérsia do artigo serve como um lembrete de que benchmarking e aplicação no mundo real não são a mesma coisa. Equipes corporativas devem ter cautela ao confiar excessivamente em benchmarks sintéticos que não refletem casos de uso práticos — ou que, inadvertidamente, limitam a capacidade do modelo de demonstrar o que sabe.

No final das contas, a grande lição para os pesquisadores de ML é que, antes de proclamar um marco de IA — ou obituário —, certifique-se de que o teste em si não esteja colocando o sistema em uma caixa pequena demais para ser pensada dentro dela.

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais newsletters do VB aqui .

Ocorreu um erro.